FILTER MODE ACTIVE

#policy optimization

Records found: 2

#policy optimization30/06/2025

DSRL: Steering Robot Policies via Latent-Space Reinforcement Learning for Real-World Adaptation

DSRL introduces a novel method to adapt diffusion-based robotic policies via latent-space reinforcement learning, significantly boosting real-world task performance without modifying base models.

READ →

#policy optimization27/05/2025

QwenLong-L1: Advancing Long-Context Reasoning in Large Language Models with Reinforcement Learning

QwenLong-L1 introduces a structured reinforcement learning approach enabling large language models to excel at long-context reasoning tasks, achieving state-of-the-art results on multiple benchmarks.

READ →